Оглавление
Введение 3
Глава I. Автоматическая классификация текстов и стили речи 7
1.1 Основные подходы к автоматической классификации текстов 7
1.2 Основные трактовки термина стиль 9
1.2.1 Термин стиль в языкознании 9
1.2.2 Функциональный стиль речи 11
1.3 Методы автоматической категоризации текстов 13
1.3.1 Типы методов автоматической классификации текстов 13
1.3.2 Методы автоматической классификации текстов по стилям речи
1.3.3 Отбор параметров для автоматической классификации текстов
1.4 Повышение эффективности и оценка качества автоматической классификации текстов 23
1.4.1 Методы отбора терминов и сокращение объёма словаря 23
1.4.2 Критерии оценки качества классификации 26
Выводы по Главе I 29
Глава II. Автоматическая классификация текстов по стилям речи на основе наивного байесовского метода 31
2.1 Основные особенности функциональных стилей речи 31
2.2 Научный стиль речи и его подстили 32
2.2.1 Функциональностилевая классификация научного стиля речи 32
2.3 Отбор параметров автоматической классификации текстов по стилям речи 35
2.4 Метод наивной байесовской классификации 37
2.4.1 Мультиноминальная модель наивной байесовской классификации 39
2.4.2 Алгоритм работы мультиноминальной модели наивного байесовского классификатора 41
Выводы по Главе II 44
Глава III. Построение системы автоматической классификации и экспериментальная оценка её работы 46
3.1 Описание данных обучающей и тестовой выборок 46
3.2 Общий алгоритм работы системы классификации текстов 47
3.3. Результаты автоматической классификации текстов по стилям речи 49
3.4. Оценка качества классификации 51
3.4. Интерпретация результатов 52
Выводы по Главе III 54
Заключение 55
Список использованной литературы 56

Advertisement
Узнайте стоимость Online
  • Тип работы
  • Часть диплома
  • Дипломная работа
  • Курсовая работа
  • Контрольная работа
  • Решение задач
  • Реферат
  • Научно - исследовательская работа
  • Отчет по практике
  • Ответы на билеты
  • Тест/экзамен online
  • Монография
  • Эссе
  • Доклад
  • Компьютерный набор текста
  • Компьютерный чертеж
  • Рецензия
  • Перевод
  • Репетитор
  • Бизнес-план
  • Конспекты
  • Проверка качества
  • Единоразовая консультация
  • Аспирантский реферат
  • Магистерская работа
  • Научная статья
  • Научный труд
  • Техническая редакция текста
  • Чертеж от руки
  • Диаграммы, таблицы
  • Презентация к защите
  • Тезисный план
  • Речь к диплому
  • Доработка заказа клиента
  • Отзыв на диплом
  • Публикация статьи в ВАК
  • Публикация статьи в Scopus
  • Дипломная работа MBA
  • Повышение оригинальности
  • Копирайтинг
  • Другое
Прикрепить файл
Рассчитать стоимость

Работа № 4021. Это ОЗНАКОМИТЕЛЬНАЯ ВЕРСИЯ работы, цена оригинала 1000 рублей. Оформлен в программе Microsoft Word.

Оплата. Контакты

Введение
В связи с бурным развитием компьютерных технологий и сети Интернет за последние двадцать лет и как следствие значительным увеличением количества доступных документов в электронной форме всё больше и больше внимания исследователей уделяется проблемам автоматической обработки текстов. В первую очередь это обусловлено потребностью Интернет-пользователя в быстром и качественном поиске информации отвечающей его запросу в большом количестве данных т.е. потребностью в информационном поиске.
Для решения задач информационного поиска привлекаются методы машинного обучения компьютерной лингвистики искусственного интеллекта анализа мультимедийной информации и т.д. Одной из таких задач является автоматическая классификация документов или рубрицирование.
В настоящее время существует множество разнообразных методов классификации документов – от наивного байесовского метода до нейросетевых алгоритмов классификации.
Помимо информационного поиска автоматическая классификация текстов применяется для решения таких задач как составление каталогов в сети Интернет Яндекс. Каталог фильтрация спама электронная почта установление авторства текста Текстология.RU сортировка новостей Яндекс. Новости подбор ключевых слов StockSubmitter снятие неоднозначности автоматические переводчики автоматическое аннотирование MS Word Intelligent Text Miner и т.д.
Что касается непосредственно автоматической классификации текстов по стилям речи то с ростом числа разнообразных программ по обработке текстов а также с увеличением объёма информации требующей классификации такой аспект текста как стиль может быть весьма полезен для решения различных прикладных задач. К примеру очевидна обоснованность использования стилистической классификации в процессе машинного перевода т.к. выбор того или иного значения многозначного слова зачастую зависит от стиля текста. Учёт информации о стиле текста может также быть полезен и при автоматическом реферировании документов т.к. наиболее значимая информация может содержаться в разных частях текста в зависимости от стиля. Классификация документов по стилям речи также могла бы существенно улучшить качество информационного поиска. Например при вводе в строку поиска запроса большой адронный коллайдер поисковая система выдаст все документы так или иначе касающиеся данной темы. Однако если пользователь укажет стиль искомого документа то результаты будут несколько иными. К примеру для научного стиля результатом поиска станут научные работы посвящённые созданию и функционированию данного устройства а для публицистического – новостные статьи в которых содержатся упоминания о большом адронном коллайдере. Следовательно автоматическая классификация текстов по стилям речи может сделать поиск информации более персонализированным более интерактивным и как следствие более эффективным.
Таким образом объектом данной работы является автоматическая классификация текстов а предметом – автоматическая классификация текстов по стилям речи.
Цель поставленная в настоящей работе заключается в создании и оценке эффективности метода двухуровневой автоматической классификации текстов по стилям речи на первом этапе которой происходит определение принадлежностинепринадлежности текста к научному стилю речи а на втором – отнесение его к одному из подстилей научного стиля. Постановка такой цели работы обусловлена идеей о том что более глубокая стилистическая классификация текстов не сводящаяся однако к жанровой классификации позволит достичь более точного соответствия результатов поиска запросу пользователя в то же время не ограничивая его рамками отдельных жанров. Так при поиске литературы необходимой для написания например дипломной работы пользователя будут интересовать оригинальные научные работы написанные в собственно научном стиле например диссертации монографии научные статьи при этом жанр документов не будет иметь особого значения. И наоборот – для более поверхностного знакомства с некоторой научной темой будет необходима информация изложенная в доступной для неспециалиста форме которой отличаются тексты научнопопулярного стиля. Таким образом для достижения поставленной цели были сформулированы следующие задачи
1. Ознакомление с основными видами и типами систем автоматической классификации текстов
2. Исследование существующих методов и параметров используемых для автоматической классификации текстов по стилям речи и жанрам
3. Изучение основных характеристик функциональных стилей речи и подстилей научного стиля
4. Разработка алгоритма автоматической классификации текстов по стилям речи
5. Реализация данного алгоритма
6. Оценка качества полученного метода автоматической классификации текстов по стилям речи.
Теоретической базой для данного исследования в области стилистики послужили работы В.В. Виноградова Стилистика. Теория поэтической речи. Поэтика А.Н. Васильевой Курс лекций по стилистике русского языка. Научный стиль речи а также Стилистический энциклопедический словарь русского языка под редакцией М.Н. Кожиной. В области автоматической классификации текстов – труды F. Sebastiani Machine learning in automated text categorization и К.Д. Маннинга и др. Введение в информационный поиск. Также были изучены эксперименты отечественных и зарубежных исследователей касающиеся автоматической жанровой и стилистической классификации текстов.
Структура данной работы обусловленная целью и задачами исследования включает в себя введение три главы и заключение.
Во введении устанавливаются объект и предмет исследования а также формулируются цели и задачи поставленные в данной работе.
Первая глава содержит теоретическую информацию об автоматической классификации текстов и понятии стиль а также включает обзор основных методов и параметров используемых для автоматической жанровой и стилевой классификации в отечественной и зарубежной практике на основе которого выбирается алгоритм классификации.
Во второй главе описывается работа выбранного алгоритма классификации а также даётся характеристика функциональных стилей речи и подстилевых разновидностей научного стиля в соответствии с которой выбираются параметры классификации.
В третьей главе приводится описание процесса создания системы автоматической классификации текстов по стилям речи проводится оценка работы классификатора и излагаются результаты классификации.
В заключении подводится итог проведённой работы и обобщаются результаты данного исследования.
Глава I. Автоматическая классификация текстов и стили речи
С развитием сети Интернет потребность в быстром и качественном рубрицировании большого числа документов приобрела большое значение. В связи с этим около двадцати лет назад появилось такое научное направление как автоматическая классификация документов [Максименко]. На сегодняшний день сложилось множество различных методов автоматического рубрицирования текстовых документов.
1.1 Основные подходы к автоматической классификации текстов
Задача автоматической классификации текстов – автоматическая сортировка документов по нужным категориям. Принято выделять два основных подхода к автоматической классификации документов
1. Классификация с учителемmachine learningbased classification или категоризация. Данный алгоритм предполагает сортировку документов по заранее определённым категориям и использует для построения классификатора сформированное экспертом обучающее множество документов основываясь на принципе схожести обучающих текстов и новых текстов поступающих на вход [Автоматическая обработка … с. 170].
2. Классификация без учителяlebased classification или кластеризация. Данная процедура подразумевает распределение документов по группам таким образом чтобы наиболее похожие документы принадлежали к одной группе а обладающие наиболее большим количеством различий – к разным при этом решение о числе и составе групп – кластеров – алгоритм принимает самостоятельно. При отсутствии обучающей выборки и заранее определённых категорий метод кластеризации использует понятие расстояния между документами [Там же с. 192].
Каждый из этих подходов имеет ряд достоинств и недостатков [Там же]. Например к преимуществам классификатора основанного на машинном обучении относятся 1 независимость от предметной области 2 высокая точность классификации 3 отсутствие больших трудозатрат. Но в то же время классификаторы подобного рода обладают следующими недостатками 1 независимость результатов классификации непосредственно от работы классификатора 2 необходимость достаточно большого объема обучающего материала. Что касается подхода основанного на правилах то среди плюсов выделяют следующие 1 высокая точность классификации при условии что правила сформулированы экспертами 2 возможность лёгкого изменения критериев классификации при малом количестве правил. К недостаткам классификации без учителя относят 1 высокую вероятность построения противоречивых правил 2 трудность поддержания правил при увеличении их числа 3 необходимость реконструкции правил при изменении предметной области [Там же].
В литературе посвящённой вопросам автоматического рубрицирования текстов чаще рассматриваются алгоритмы классификации с учителем поэтому и в данной работе речь пойдёт о методе категоризации.
Категоризация текстов – это процедура приписывания каждой паре <dj ci> принадлежащих D×C логического значения где D – это множество документов а C<c1 …… c|C|> – ряд заранее определенных категорий. Значение Te присвоенное <dj ci> означает то что документ dj соответствует категории ci. Значение False присвоенное <dj ci> означает то что документ dj не соответствует категории ci. То есть задача категоризации заключается в аппроксимации неизвестной целевой функции D×C →{TF} которая описывает как должны быть классифицированы документы с помощью функцииклассификатора Φ D×C→{TC} таким образом чтобы функции и Φ совпадали настолько насколько это возможно [Sebastiani p.2] . Важно помнить что категории – это лишь ярлыки не несущие никакой дополнительной информации. Эти ярлыки присваиваются документам внешние данные о которых год создания источник и т.д. так же не учитываются а используется только та информация которая извлекается непосредственно из текста [Лифшиц].
При тематической классификации под категорией ci понимается некоторая тематика документа а при стилистической – его стиль.
Следует отметить что термин стиль не является однозначным и существует множество подходов к определению данного понятия. Поэтому прежде чем говорить о стилистической классификации текстов необходимо обозначить что подразумевается под термином стиль.
1.2 Основные трактовки термина стиль
Согласно [Кожина] общим признаком для всех определений стиля в том числе и не лингвистических является его связь с деятельностью человека т.е. с характером либо самой деятельности либо её продукта. Выявляются такие черты стиля как системность целенаправленность а так же характерологический признак. Данные свойства проявляются в трактовке понятия стиль и с точки зрения языкознания.
1.2.1 Термин стиль в языкознании
М.Н. Кожина даёт следующее определение Стиль – это свойства признаки содержательного плана обусловленные экстралингвистически получающие реализацию через своеобразное построение материальных элементов – своеобразные комбинации языковых единиц особое построение речи выступающее в качестве плана выражения [Кожина с. 86].
Таким образом в широком смысле стиль связан с оформлением коммуникации в соответствии с назначением общения в какойлибо сфере. В более узком смысле с точки зрения структурной стилистики стиль определяется как совокупность стилистически одинаково окрашенных языковых средств [Там же с. 87].
Стилевая дифференциация может строиться либо на базе литературного языка либо на базе общенародного языка [Розенталь с.11]. В соответствие с этим в лингвистическом энциклопедическом словаре различают следующие понятия стиля Стиль от лат. stilus stylus – остроконечная палочка для письма манера письма в языкознании
1 разновидность языка закрепленная в данном обществе традицией за одной из наиболее общих сфер социальной жизни и частично отличающаяся от других разновидностей того же языка по всем основным параметрам – лексикой грамматикой фонетикой то же что стиль языка. В современных развитых национальных языках существуют три наиболее крупных стиля языка в этом значении
а нейтральный
б более высокий книжный
в более низкий разговорный или фамильярноразговорный или разговорнопросторечный
2 то же что функциональный стиль
3 общепринятая манера обычный способ исполнения какоголибо конкретного типа речевых актов ораторская речь передовая статья в газете научная не узкоспециальная лекция судебная речь бытовой диалог дружеское письмо и т. д. стиль в этом смысле характеризуется не только набором параметрами языковых средств но и композицией акта
4 индивидуальная манера способ которым исполнен данный речевой акт или произведение в том числе литературнохудожественное
5 то же что языковая парадигма эпохи состояние языка в стилевом отношении в данную эпоху .
Вышеописанные подходы к пониманию стиля лежат в основе многих систем автоматического стилистического анализа текстов. Например в соответствии с первым определением построена работа системы автоматической проверки правописания в текстовом редакторе MS Word позволяющей установить один из трёх уровней проверки грамматической и стилистической правильности строгий для деловой переписки для обычной переписки которые очевидно соответствуют книжному нейтральному и разговорному стилям.
Другим примером практического применения стилевой классификации текстов являются программы атрибуции текста или автоматического определения авторства текста устанавливающие особенности индивидуальной манеры письма того или иного автора т.е. системы классификации текстов с точки зрения четвёртого определения.
Третье определение стиля наиболее близкое понятию жанр используется в системах жанровой классификации текстов. В зарубежной практике большинство работ посвящено именно такому рубрицированию в то время как в системах стилистической классификации русскоязычных текстов в основном используется понятие функционального стиля Лингвоанализатор каталог Яндекс. В данной работе как и во многих других исследованиях посвящённых стилистической классификации определение стиль также рассматривается с точки зрения второго подхода т.е. в значении функционального стиля.
1.2.2 Функциональный стиль речи
Согласно стилистическому энциклопедическому словарю русского языка функциональный стиль – это исторически сложившаяся общественно осознанная речевая разновидность обладающая специфическим характером сложившаяся в результате реализации особых принципов отбора и сочетания языковых средств это разновидность соответствующая той или иной социально значимой сфере общения и деятельности соотносимой с определённой формой сознания наука искусство право и т.д. [СЭС с.581]. Наряду с данным значением в словаре даётся и другая дефиниция исторически сложившийся тип функционирования языка отложившийся и существующий в сознании говорящих который реализуется в речи в процессе общения представляет собой крупные композиционные типы речи обладающие спецификой [Там же].
Существуют два различных взгляда на функциональный стиль – как на стиль речи и как на стиль языка. Данный вопрос затрагивается в исследованиях многих языковедов однако мнения относительно его решения существенно разнятся. Так например В.В. Виноградов называет стилями языка непосредственно функциональные стили а стилями речи – такие композиционные системы как жанры и конструктивные разновидности устной и письменной речи [Виноградов с.14]. Другой учёный – И.Р. Гальперин изначально соглашаясь с определением В.В. Виноградова впоследствии приходит к выводу что стилистика языка и стилистика речи не имеют между собой значительных различий. Он аргументирует это тем что вариативность типологических признаков какоголибо функционального стиля не перекрывает общих характеристик всех текстов данного стиля составляющих их инвариант [Гальперин с.13]. Идеи И.Р. Гальперина находят своё отражение в трудах М.Н. Кожиной где на основе понимания единства языка и речи функциональные стили признаются стилями и языка и речи т.е. стилями функционального аспекта языка. Однако особенно подчёркивается их речевая природа т.к. функциональный стиль создаётся в процессе употребления языка [СЭС с.111].
Так как автоматическая стилевая классификация имеет дело со стилями реализованными непосредственно в тексте т.е. обладающими конкретными количественными и качественными признаками то в данной работе в отношении функционального стиля будет более уместно использование понятия стиль речи.
В определениях функционального стиля данных в стилистическом энциклопедическом словаре ясно отражена экстралингвистическая природа функциональных стилей т.е. обусловленность употребления того или иного стиля целями и сферой общения а также постепенное становление функциональных стилей речи в ходе развития литературного языка. Согласно [Розенталь] функциональные стили возникли для реализации важнейших функций языка – общение сообщение воздействие. В соответствии с данными функциями принято выделять следующие стили разговорный общение научный и официальноделовой сообщение публицистический и художественный воздействие [Там же с.12]. Каждый функциональный стиль обладает определённой речевой системностью т. е. взаимосвязью разноуровневых языковых и текстовых единиц направленной на выполнение определённой языковой функции [СЭС с.347]. Как отмечает Д.Э. Розенталь имея тесную связь с содержанием целями и задачами высказывания каждый стиль обладает определёнными принципами отбора сочетания и организации языковых единиц [Розенталь с. 12]. Исходя из того что данные принципы создаются на основании различной частоты встречаемости тех или иных языковых средств в текстах каждого функционального стиля можно говорить об их вероятностностатистическом характере. Это делает возможным эффективный стилистический анализ текста с помощью статистических алгоритмов и дальнейшее использование полученных результатов для решения задач автоматической стилистической классификации текстов. Данное положение подтверждается множеством работ посвящённых автоматической стилистической классификации текстов которые включают практическую реализацию алгоритмов классификации демонстрирующих высокую точность и эффективность. Классификаторы в данных работах построены на различных методах и имеют в основании разные признаки текста.
1.3 Методы автоматической категоризации текстов
Методы классификации документов с учителем подразумевают наличие некоторой коллекции заранее отрубрицированных документов которая в целях последующей проверки эффективности классификатора разбивается на две части учебную коллекцию на характеристиках документов которой классификатор обучается и тестовую коллекцию на которой оценивается качество работы классификатора [Лифшиц].
1.3.1 Типы методов автоматической классификации текстов
В подходе классификации текстов с учителем принято выделять следующие типы методов рубрицирования [Максименко]
1. Статистические методы. Данные способы классификации текстов подразумевают установление соответствия образа документа набора наиболее важных признаков встречающихся в документе образу рубрики набору признаков характеризующих рубрику на основе их статистических параметров. Портрет рубрики создаётся автоматически на основе обучающей выборки документов сформированной экспертом для каждой рубрики при помощи одного из алгоритмов обучения классификатора.
В качестве достоинств данного метода могут быть названы 1 простота составления портрета рубрики 2 возможность определения набора характеристик для очень широкого класса рубрик разных предметных областей 3 наличие количественной оценки релевантности документов рубрикам 4 высокое быстродействие. Однако данный метод уступает классификации без учителя в качестве рубрицирования [Там же с.74].
2. Нейросетевые методы. Идея нейросетевой классификации состоит в использовании нейронной сети в качестве обучаемого классификатора. Данный метод предполагает установление релевантностинерелевантности документа какойлибо рубрике на основе набора текстов для каждого из которых принадлежность к той или иной рубрике определена экспертом. По качеству классификации метод нейронной сети занимает промежуточное положение между статистическим методом и классификацией без учителя. К его основным недостаткам относятся 1 невозможность обоснования работы нейронной сети 2 длительность обучения нейронной сети [Там же с.75].
В работах посвящённых непосредственно стилистической категоризации а также жанровому рубрицированию задачи которого близки задачам классификации по стилям речи в основном используются статистические методы основанные на статистических характеристиках текста.
Следует отметить что если для решения задач тематической классификации документов может быть достаточно данных о частоте встречаемости тех или иных терминов в тексте то стилистическая классификация подразумевает более глубокий анализ текста. И хотя некоторые наборы слов характеризующие ту или иную тематику могут появляться лишь в текстах определённого стиля не всегда представляется возможным точно определить стиль документа только по входящим в него терминам. Поэтому многие исследователи уделяют особое внимание поиску дополнительных параметров стилистической классификации не только на лексическом но и на других уровнях языка.
1.3.2 Методы автоматической классификации текстов по стилям речи
Как пишет П.И. Браславский метод стилистической классификации должен быть довольно прост в вычислительном плане как и параметры текста на основе которых строится классификатор должны быть легко вычислимы но в то же время содержательны с точки зрения стилистики [Браславский].
Так для решения задач стилистической классификации исследователями часто используется метод наивной байесовской классификации [Lee Myaeng Santini 2004 Dewdney VanessDikema Macmillan] который базируется на анализе совместной дистрибуции признаков документа и предопределённых классов [Агеев с.25]. Во многих работах стилистические классификаторы построены с помощью метода опорных векторов [Pritsos Stamatatos Waltinger Mehler Wegner Snyman van Huyssteen Daelemans] подразумевающем нахождение в векторном пространстве документов некой разделяющей поверхности между двумя категориями c и [Автоматическая обработка … с.181]. Так же распространён метод kближайших соседей [Lex Juffinger Granitzer Wolters Kirsten] заключающийся в присваивании документу преобладающей категории ближайших соседей [Маннинг Рагхаван Шютце с. 303]. Не менее часто в литературе можно встретить стилистические классификации построенные с помощью дискриминантного анализа [Браславский Classifying factored … Stamatatos Fakotakis Kokkinakis] – статистического метода позволяющего изучать различия между двумя и более группами объектов по нескольким переменным одновременно [Клекка с.78]. Данные методы различаются уровнем сложности воспроизведения степенью вычислительных затрат и т.д. но каждый из них доказывает свою эффективность при решении задач автоматической классификации текстов по стилям речи.
Однако разные исследователи приходят к разным выводам относительно эффективности того или иного метода. Так например в [Lee Myaeng] показатели точности байесовского классификатора варьируются от 79 до 83 в [Dewdney VanessDikema Macmillan] – от 78 до 84 в [Dong] – от 86 до 92 а в [Малахов] точность байесовской классификации достигает 98. В [Wolters Kirsten] более сложный метод kближайших соседей демонстрирует гораздо более высокие показатели – до 100 точности в то время как по результатам сравнения данного метода с методом байесовской классификации в [Lex Juffinger Granitze] точность последнего всего лишь на 4 ниже а в [Snyman van Huyssteen Daelemans] например для жанровой классификации текстов на языке африкаанс наивный байесовский классификатор по степени точности классификации 77 превосходит метод kближайших соседей 75 . Такое положение дел может объясняться тем что в разных работах для классификации выбираются разные категории и параметры классификации а также обучение проводится на текстовых выборках разного объёма.
Таким образом можно сделать вывод что качество классификации зависит не столько от метода сколько от правильного выбора параметров классификации отвечающих задачам классификации а также от создания коллекции обучающих документов оптимального объёма. Так зависимость точности классификации от числа документов обучающей выборки видна на Рисунке 1.
Что касается отбора параметров то как отмечает П.И. Браславский литература по стилистике едва ли может помочь в решении данного вопроса т.к. зачастую в ней даются лишь качественные характеристики стилей речи такие как например образность логичность экспрессивность и т.д. Количественные параметры того или иного стиля если и приводятся то лишь в качестве примеров [Браславский].
Как следствие многие исследователи сосредоточили своё внимание на проблеме выделения отличительных признаков стилей речи подходящих для решения задач автоматической стилистической классификации. Исходя из принципа вычислительной простоты предпочтение отдаётся легко формализуемым характеристикам текста с нижних уровней языка графического морфологического лексического. Что касается синтаксического уровня на котором находятся многие характерные стилистические признаки вследствие того что проведение синтаксического анализа считается слишком затратным выводы о наличии тех или иных синтаксических параметров делаются по косвенным легко вычислимым признакам знаки пунктуации союзы и т.д. [Браславский].
1.3.3 Отбор параметров для автоматической классификации текстов
В результате исследований отличительных признаков текста позволяющих автоматически определить его стиль или жанр были выделены следующие группы параметров 1 деривативные средняя длина предложения средняя длина слова и т.д. 2 символьные количество знаков препинания букв предложений и т.д. 3 лексические количество обращений слова с наибольшей частотой встречаемости в корпусе и т.д. 4 синтаксические количество частей речи [Rittman Wacholder].
С другой стороны П.И. Браславский предлагая собственную стилистическую классификацию разделяет параметры на формальные и формальносемантические см. Таблицу 1.
Как показывает практика довольно успешная автоматическая классификация текстов по стилям речи может быть произведена как на основе нескольких параметров так и на основе лишь одного из них.
Так например на сайте Тенетаринет представлена реализация алгоритма стилистической классификации с использованием только одного параметра – средней длины слов. В данной классификации для каждого стиля разговорного художественного публицистического и научного были построены кривые отображающие процент слов определённой длинны от общего числа слов в текстах того или иного стиля речи см. Рисунок 2 [URL teneta.rinet.]. Затем для каждого нового текста создаётся такая же кривая и приближается к одной из имеющихся кривых. На основе того к какой из базовых кривых окажется ближе новая кривая делается предположение о принадлежности данного текста к тому или иному стилю [URL teneta.rinet.]. Несмотря на сравнительно небольшую точность классификации около 70 данный метод является одним из самых простых и легко реализуемых способов автоматической стилистической классификации.
Частота слов – другой параметр классификации более характерный для тематического рубрицирования – также находит своё применение в решении задач классификации по стилям речи но в отличие от тематической классификации при стилистическом рубрицировании принято использовать тематическинейтральные слова. Это обусловлено тем что стиль документа как правило не связан с темой. Более того если тексты разных жанров объединены одной тематикой то использование содержательных слов contenttopic words может привести к неправильному обучению классификатора и значительно снизить качество классификации [Santini 2006]. Поэтому при стилистическом рубрицировании предлагается использовать частоту не отдельных слов а определённых групп слов таких как научные термины канцеляризмы и т.п. [Stamatatos Fakotakis Kokkinakis] Как видно из Таблицы 1 П.И. Браславский предлагает учитывать частоту общенаучных слов и слов организации логики повествования. В [Stylistic text …] для решения разнообразных задач классификации используются союзные и модальные слова слова авторских суждений и оценок ment and appraisal. Однако частота слов при стилистической классификации используется в сочетании с другими параметрами что заметно повышает эффективность классификации и позволяет уменьшить количество ошибочных результатов. К примеру как показано в [Stamatatos Fakotakis Kokkinakis] после добавления к классификации основанной на частоте слов такого параметра как частота знаков препинания уровень ошибок значительно снизился см. Рисунок 3. При этом точность рубрицирования основанного только на частоте слов и знаков препинания составила 97 [Stamatatos Fakotakis Kokkinakis].
В [Wolters Kirsten] предложен другой комбинированный подход к жанровой классификации текстов в котором традиционный для информационного поиска метод представления документа в виде мешка слова “bag of words” преобразован в мешок ‘тэггированных’ слов “bag of ‘tagged’ words” т.е. вектор частот лемматизированных содержательных слов и частот функциональных слов дополненный информацией о частях речи. И такое сочетание параметров показало наибольшую точность классификации по сравнению с классификацией учитывающей только встречаемость слов [Wolters Kirsten].
Наряду с этим существуют классификации основанные на большем количестве параметров. Например Ю. Карлгрен Karlgren и Д. Каттинг Cutting предлагают классификацию текстов по двум четырём и пятнадцати стилевым и жанровым категориям построенную с использованием двадцати параметров среди которых средняя длина слова в буквах средняя длина предложения в словах и в буквах количество слов Therefore Me I It That и Which количество наречий предлогов существительных глаголов и причастий настоящего времени количество букв количество длинных слов более 6 букв количество местоимений 1го и 2го лица количество предложений [Karlgren Cutting]. Несмотря на снижение эффективности рубрицирования по мере увеличения числа категорий максимальная точность классификации по данным параметрам составила 96 [Там же]. Классификации некоторых других исследователей построены с учётом ещё большего количества параметров. Так например в [Kessler Nunberg Schuetze] для построения классификатора использовано 55 критериев а в [Santini 2006] – более 100 критериев взятых из всех четырёх вышеупомянутых групп параметров. Однако как показывают исследования Ш. Аргамона Argamon и др. большое количество параметров отнюдь не гарантирует наиболее высокую эффективность классификации [Stylistic text …]. Хотя в [Там же] не затрагивались вопросы классификации текстов непосредственно по функциональным стилям речи или жанрам пример независимости качества рубрицирования от числа параметров при классификации мужской и женской речи в произведениях У. Шекспира представляется довольно показательным. Как видно из Рисунка 4 наибольшая точность классификации достигается при сочетании трёх и четырёх параметров частоты союзных слов Con модальных слов Mod слов выражающих авторские суждения Com или оценки App. Однако при добавлении к ним ещё одного параметра – частоты всех слов FW – точность классификации заметно снижается [Там же]. Также следует отметить что классификация учитывающая только один из вышеперечисленных параметров Con демонстрирует более высокие результаты чем классификация построенная с учётом всех пяти параметров.
Также интересно исследование в [Lex Juffinger Granitzer] где проведено сравнение точности жанровых классификаций основанных на стилометрических параметрах таких как распределение знаков препинания среднее количество слов или букв в предложениях длина слов отношение прописных букв к заглавным и т.д. или на лексических параметрах включающих частоту встречаемости отдельных слов групп слов по два и три слова количество существительных глаголов личных местоимений и т.д. Эксперименты показали что лучшие результаты классификации учитывающей стилометрические параметры были значительно ниже результатов классификации на основе лексических параметров. Однако как утверждают исследователи в отличие от лексических стилометрические параметры могут гарантировать тематическую независимость что крайне важно при решении задач стилистической классификации [Там же].
Таким образом можно сделать вывод что отбор параметров является важным этапом построения стилевой классификации текстов. Для достижения высоких результатов классификации необходимо комбинировать параметры разных уровней однако следует помнить что выбранные параметры должны соответствовать задачам классификации т.к. использование лишних критериев может повлечь за собой снижение эффективности работы классификатора. Кроме того в связи с тем что очень часто одним из критериев стилевой классификации выступает частота тех или иных слов терминов объём словаря данных слов также влияет на качество классификации поэтому полезно применять методики отбора терминов и сокращения словаря.
1.4 Повышение эффективности и оценка качества автоматической классификации текстов
1.4.1 Методы отбора терминов и сокращение объёма словаря
Эффективность работы классификатора напрямую зависит от размера словаря. Чем объемнее словарь тем выше временные и вычислительные затраты. Кроме того слишком большое количество терминов в коллекции документов может существенно снизить качество классификации т.к. среди терминов может оказаться большое число т.н. шумовых признаков со слабой классификационной способностью [Автоматическая обработка … с. 172].
Первоначально в целях сокращения словаря и повышения эффективности классификатора каждый термин подвергают процедуре лемматизации приведение терминов к словарной форме или стемминга отсечение окончаний [Агеев]. Однако даже после приведения всех терминов к нормализованной форме может оказаться что пространство признаков документа все еще слишком велико. Тогда есть смысл исключить т.н. стопслова – вспомогательные части речи не отражающие смысл текста например союзы предлоги местоимения [Лавренов]. Однако разные основания классификации требуют разных групп стопслов. Например для тематической классификации будут важны слова несущие смысл а предлоги и союзы окажутся в списке стопслов. С другой стороны для установления авторства текста больше внимания уделяется именно служебным частям речи. Как было показано в предыдущем разделе для стилистической классификации также важны личные местоимения союзы частицы т.к. они являются тематическинезависимыми но при этом могут отражать принадлежность текста к тому или иному стилю. Так например в [Stamatatos Fakotakis Kokkinakis 2000] для стилистической классификации были отобраны 50 наиболее часто встречающихся слов из Национального Британского Корпуса откуда были взяты тренировочные и текстовые данные. В этот список вошли такие слова как the of an in [Там же].
Наряду со стопсловами из словаря также удаляют слишком редкие слова встречающиеся 12 раза в многотысячной выборке [Лавренов].
Следующим важным этапом при создании текстового классификатора является отбор терминов имеющих наибольшее влияние на отнесение данного документа к какойлибо категории. Отбор терминов чаще всего осуществляется с помощью следующих методов
1. Метод частоты встречаемости frequencybased feature selection. Данный метод является наиболее простым но достаточно эффективным. Основываясь на наблюдении что наиболее информативными являются слова со средней или высокой частотой встречаемости данный метод подразумевает отбор таких терминов которые обладают наибольшей частотой в том или ином классе при условии что были удалены стопслова [Автоматическая обработка … с.173]. Принято различать документную частоту и частоту в коллекции. Первая основывается на подсчёте числа документов того или иного класса содержащих какойлибо термин а вторая – на подсчёте количества лексем какоголибо термина в документах того или иного класса [Маннинг]. При применении данного метода часто используются пороговые значения равные обычно 15 документам [Там же]. Метод частоты встречаемости может использоваться как отдельно так и в сочетании с другими методами.
2. Метод взаимной информации Mutual Information – MI. Данный метод заключается в подсчёте информационного веса слова т.е. количества информации о принадлежности к тому или иному классу которое несёт наличиеотсутствие данного термина [Dumais p.3]. Вычисления производятся по следующей формуле
Выводы по Главе I
Автоматическая классификация текстов по стилям речи представляет большой интерес для отечественных и зарубежных учёных т.к. её применение позволяет существенно улучшить результаты автоматической обработки текстов и естественного языка в таких областях как информационный поиск машинный перевод автоматическое реферирование текстов и др.
В связи с тем что понятие стиль может принимать разные значения стилевая классификация текстов может быть направлена на решение различных задач в которые входят автоматическая проверка правописания атрибуция текстов жанровая классификация текстов и т.д. В данной работе рассматривается автоматическая классификация текстов по функциональным стилям речи.
Принимая во внимание что каждый функциональный стиль отличается определённой взаимосвязью языковых и текстовых единиц принципы отбора и организации которых носят вероятностностатистический характер можно говорить о возможности применения статистических алгоритмов классификации для автоматического определения стиля текста.
Проблема построения системы автоматической классификации текстов по функциональным стилям речи включает в себя выбор алгоритма классификации а также отбор параметров классификации обладающих наибольшей отличительной способностью.
Принимая во внимание эксперименты проведённые разными исследователями для построения автоматической классификации текстов в данной работе выбран один из статистических алгоритмов рубрицирования с учителем – метод наивной байесовской классификации который подразумевает анализ совместной дистрибуции признаков документа и предопределённых классов. Благодаря своей простоте данный метод является одним из самых распространённых методов автоматической классификации текстов. И хотя принято считать что эффективность наивного байесовского классификатора значительно ниже эффективности других методов исследования показывают что данный алгоритм всё же способен демонстрировать довольно высокие результаты сравнимые с результатами более сложных алгоритмов классификации.
Что касается отбора параметров то на основании проведённого обзора можно сделать вывод что для качественной стилистической классификации необходимо и может быть достаточным сочетание стилометрических и лексических параметров соответствующих задачам классификации.
Глава II. Автоматическая классификация текстов по стилям речи на основе наивного байесовского метода
Как уже было сказано в отечественной практике принято выделять четыре функциональных стиля речи – научный публицистический официальноделовой и художественный. Данные стили характеризуют тексты созданные в рамках норм литературного языка. Однако в последнее время с развитием сети Интернет появляется всё больше и больше текстов разговорного стиля которые так же требуют классификации. Поэтому в данной работе в основу системы автоматического рубрицирования положена функциональностилевая классификация включающая пять указанных стилей речи.
2.1 Основные особенности функциональных стилей речи
Специфика каждого функционального стиля обусловлена определённым набором экстралингвистических факторов. Особенности функциональных стилей представлены в Таблице 2.
Таблица 2
На основании данных особенностей выделяются основные языковые средства определяющие принадлежность текста к тому или иному функциональному стилю речи. Однако несмотря на существенные различия в речевом континууме функциональные стили взаимодействуют друг с другом вследствие чего некоторый конкретный текст может в той или иной степени сочетать в себе черты разных стилей [Кожина]. Это отражается в выделении внутри функционального стиля некоторых подстилевых разновидностей обладающих не только общими чертами макростиля но и определёнными характеристиками других стилей.
Так как целью данной работы является создание системы двухуровневой классификации на втором уровне которой определяется принадлежность текста к одному из подстилей научного стиля речи то следует подробнее рассмотреть именно этот стиль.
2.2 Научный стиль речи и его подстили
Научный стиль речи – это речевая система функционирующая как форма логически организованного существования научной информации представляющей результаты научного творческого мышления и как средство обмена этой информацией в обществе [Васильева с.21]. Как уже было сказано от других стилей речи научный стиль отличается логичностью изложения упорядоченной системой связей между частями высказывания точностью сжатостью и однозначностью изложения при максимальной информативности содержания [Розенталь с.23]. Однако в разных подстилях научного стиля данные особенности проявляются в разной степени.
2.2.1 Функциональностилевая классификация научного стиля речи
В литературе по стилистике приводятся разные классификации подстилей научного стиля речи. В данной работе принята классификация включающая наиболее конкретные разновидности научного стиля [Котюрова]
 собственно научный стиль
 научноучебный стиль
 научнотехнический стиль
 научнопопулярный стиль.
Различия данных подстилей также обусловлены разными целями и адресатами сообщения представленными в Таблице 3.
Таблица 3
Указания методические рекомендации конспект лекции
Научнотехнический стиль Изложение технических характеристик некоторого научного объекта Специалисты занятые в определённой области обладающие необходимым уровнем специального знания Инструкция патент описание технических устройств руководство по эксплуатации
Научнопопулярный стиль Максимально доступное и понятное изложение научного знания Лица любого возраста и уровня образования Статья в научнопопулярном издании очерк заметка
Если представлять данные подстилевые разновидности в виде полевой структуры научного стиля речи то её ядром будет собственно научный стиль в наибольшей степени обладающий характеристиками научного стиля. К области периферии будет относиться научноучебный стиль т.к. в нём особенности научного стиля выражены несколько меньше чем в собственно научном стиле. Тексты научнотехнического и научнопопулярного стилей находятся на границах научного стиля и других стилей речи. Например научнопопулярный стиль сочетает в себе черты научного и публицистического стиля речи а тексты научнотехнического стиля обладают некоторыми характеристиками официальноделового стиля [Котюрова с.82]. Кроме этого по аналогии с [Браславский] где функциональные стили распределены по шкале образность – информативность которая отражает установку автора либо на объективную передачу данных либо на эмоциональное воздействие на читателя подстили научного стиля также можно распределить по данной шкале см. Рисунок 5.
Такое распределение подстилей отражается на языковых средствах характеризующих тексты данных разновидностей их количественных признаках которые могут сближаться с характеристиками других макростилей в зависимости от удаления подстиля от ядра полевой структуры научного стиля.
Таким образом для построения двухуровневой классификации способной не только верно указывать стиль текста но и определять принадлежит ли он к одному из подстилей необходимо выбирать такие параметры классификации которые обладали бы высокой различительной способностью на обоих уровнях классификации.
2.3 Отбор параметров автоматической классификации текстов по стилям речи
В соответствии с принципом отбора наиболее легко вычислимых параметров несущих при этом определённую стилевую информацию в данной работе уделяется внимание таким группам характеристик как деривативные символьные и лексические параметры.
Как и во многих других исследованиях основным параметром классификации в данной работе является частота слов. Это обусловлено в первую очередь тем что тексты того или иного функционального стиля речи характеризуются частым употреблением слов принадлежащих к определённым группам термины и общенаучная лексика – в научном стиле общественнополитическая лексика – в публицистическом канцеляризмы – в официальноделовом архаизмы и историзмы – в художественном просторечная и эмоциональноэкспрессивная лексика – в разговорном [Кожина]. Что касается второго уровня классификации то в данной работе делается предположение что несмотря на появление в текстах разных подстилей слов одной и той же лексической группы частота их встречаемости будет разной. Кроме того доля слов лексических групп характерных для других стилей так же будет варьироваться в зависимости от удаления текста от центра полевой структуры научного стиля. Более того частота слов может давать информацию об устройстве текста не только на лексическом уровне но в некоторой степени и на морфологическом уровне позволяя вычислять частоту появления в тексте личных и указательных местоимений частиц и других служебных частей речи обладающих определённой различительной способностью. Поэтому в данной работе во время обучения и тестирования классификатора на этапе предварительной обработки текста при удалении стопслов удаляться будут только непроизводные предлоги и союзы а местоимения частицы и междометия будут сохраняться как признаки несущие стилевую информацию.
Что касается деривативных признаков таких как средняя длина слова в буквах и средняя длина предложения в словах то их эффективность при автоматической классификации текстов по стилям и жанрам демонстрируется во многих исследованиях отечественных и зарубежных специалистов см. раздел 1.3.3. В данной работе проверяется целесообразность их применения при определении принадлежности текста к одной из подстилевых разновидностей научного стиля речи. Можно ожидать что имея в своей основе разные прагматические установки тексты разных подстилей будут обладать определёнными деривативными различиями. Так например предполагается что тексты собственно научного стиля будут содержать значительно более длинные слова и предложения чем тексты других подстилей.
Наряду с вышеописанными признаками для автоматической классификации текстов в данной работе используется такой символьный параметр классификации как количество знаков препинания. Для классификации используются такие знаки препинания как точка запятая восклицательный и вопросительный знаки открытая и закрытая круглые скобки тире кавычки. Также в данный список включён знак равенства для обозначения формул в текстах. Данный признак позволит определять тексты обладающие более высокой степенью эмоциональной окрашенности и относить их к соответствующим категориям а также выявлять определённые элементы текста характерные для тех или иных стилей формулы – в научном прямая речь – в художественном и т.д..
Таким образом на основе анализа частоты появления слов и знаков препинания а также с учётом средней длины слова и предложения с помощью выбранного алгоритма категоризации – метода наивной байесовской классификации – может быть построена автоматическая двухуровневая классификация текстов по функциональным стилям речи и подстилям научного стиля речи.
2.4 Метод наивной байесовской классификации
Метод наивной байесовской классификации основан на простых вероятностных моделях позволяющих отнести неизвестный документ к какомулибо классу используя теорему Байеса
Из примера видно что апостериорная вероятность принадлежности данного документа категории Научный стиль выше апостериорной вероятности принадлежности документа категории Ненаучный стиль.
2.4.2 Алгоритм работы мультиноминальной модели наивного байесовского классификатора
Являясь алгоритмом автоматической категоризации текстов метод наивной байесовской классификации подразумевает разбиение процесса рубрицирования на два этапа обучение классификатора на заданной коллекции текстов и непосредственно сама классификация некоторых новых текстов. На основе этого строится алгоритм работы мультиноминальной модели наивного байесовского классификатора.
I. Обучение мультиноминального наивного байесовского классификатора.
1. Имеется множество категорий C и обучающая выборка документов D.
2. Извлечь все термины из обучающей выборки D в словарь W.
i. Для каждого термина t словаря W вычислить величину полезности по методу взаимной информации Atc .
ii. Выявить термины с наибольшей величиной полезности max Atc.
3. Составить словарь V из терминов с наибольшей величиной полезности.
4. Посчитать общее количество N документов обучающей выборки D.
5. Для каждой категории количество всех терминов в словаре без учета повторений посчитать количество обучающих документов Nc.
6. Для каждой категории c∊C посчитать априорную вероятность prior c .
7. Посчитать количество B всех терминов в словаре V без учета повторений.
8. Для каждого термина словаря t∊V посчитать число вхождений в документы категории Tct.
9. Для каждого термина словаря t∊V вычислить условную вероятность вхождения термина в категорию condpropt|c .
10. Вывести словарь терминов V априорную вероятность каждой категории c∊C условную вероятность.
II. Применение мультиноминального наивного байесовского классификатора.
1. Имеется множество категорий C словарь терминов V априорная вероятность prior с условная вероятность condprobt|cи новый документ dj.
2. Составить словарь Vdj всех терминов из документа dj в соответствии со словарем V.
3. Для каждой категории c∊C посчитать логарифм от априорной вероятности c log priorc.
4. Для каждого термина документа t∊ Vdj посчитать апостериорную вероятность posterc log priorc+log condprobt|c.
5. Выявить категорию с наибольшей апостериорной вероятностью argmax posterc.
6. Приписать документ dj к данной категории с.
Выводы по Главе II
С точки зрения стилистики каждый текст имеет некоторые особенности специфичные для того или иного функционального стиля речи. Однако каждый функциональный стиль неоднороден и обладает различными подстилевыми разновидностями. Таким образом текст может содержать не только характерные стилевые черты определённого стиля но и более частные черты его подстилевых разновидностей.
В данной главе рассмотрены основные особенности функциональных стилей речи и подстилей научного стиля. Несмотря на то что подстилевые разновидности обладают всеми основными особенностями научного стиля количественные характеристики данных особенностей в текстах разных подстилей могут существенно различаться. Кроме того наравне с инвариантными признаками макростиля некоторые разновидности научного стиля речи обладают ярко выраженными чертами других функциональных стилей. Исходя из описанных в данной главе особенностей научного стиля и различий между его подстилями сделано предположение что успешной классификации текстов по стилям и подстилям речи может способствовать выбор следующих параметров классификации частота слов частота знаков препинания средняя длина слов и средняя длина предложений.
Классификация текстов по данным параметрам может быть произведена с помощью алгоритма наивной байесовской классификации работа которого описана в данной главе. В настоящей работе выбрана мультиноминальная модель наивной байесовской классификации. Это обусловлено тем что при классификации текстов по подстилям научного стиля в той или иной степени обладающим основными чертами макростиля важно не наличиеотсутствие какойлибо особенности на чём строится многомерная модель Бернулли а частота её появления в тексте на чём основывается мультиноминальная модель. Кроме этого в данной главе предлагается алгоритм работы мультиноминальной модели наивного байесовского классификатора который будет использован для построения непосредственно автоматической классификации в следующей главе.
Глава III. Построение системы автоматической классификации и экспериментальная оценка её работы
Двухуровневая система автоматической классификации текстов по стилям речи в данной работе реализована на объектноориентированном языке программирования Java с помощью среды разработки NetBeans а также с использованием открытых библиотек Java Machine Learning Library и The Apache Lucene.
3.1 Описание данных обучающей и тестовой выборок
Для обучения и тестирования данной системы было составлено три выборки обучающая выборка первого уровня классификации по функциональным стилям речи обучающая выборка второго уровня классификации по подстилям научного стиля и тестовая выборка. Выборка первого уровня содержит 500 документов см. Диаграмма 1 выборка второго уровня – 400 документов см. Диаграмма 2 тестовая выборка – 500 см. Диаграмма 3. Для каждого подстиля научного стиля выбирались тексты из разных областей знаний гуманитарные науки – языкознание история философия экономика естественные науки – физика химия биология астрономия математика технические науки – информатика кибернетика искусственный интеллект.
Источники документов для каждой категории показаны в Таблице 6.
3.2 Общий алгоритм работы системы классификации текстов
I.Обучение классификатора.
1 Загрузка текстов обучающей выборки первого уровня.
2 Вычисление деривативных признаков текстов
a Подсчёт средней длины слова в символах
b Подсчёт средней длины предложения в словах.
3 Удаление стопслов.
4 Лемматизация.
5 Вычисление частоты встречаемости предопределённых знаков препинания и лемм оставшихся слов и построение TFвектора для каждого документа выборки.
6 Обучение классификатора на основе алгоритма изложенного в разделе 2.4.2.
7 Сохранение модели классификации первого уровня.
8 Загрузка текстов обучающей выборки второго уровня.
9 Повторение алгоритма вычисления деривативных символьных и лексических признаков обработки данных и обучения классификатора для выборки второго уровня.
10 Сохранение модели классификации второго уровня.
II. Применение классификатора.
1 Загрузка нового текста.
2 Повторение алгоритма вычисления деривативных символьных и лексических признаков и обработки данных для нового документа.
3 Загрузка модели классификации первого уровня.
4 Определение принадлежности нового документа к одному из функциональных стилей речи в соответствии с алгоритмом классификации изложенном в 2.4.2.
a Если документ не принадлежит к категории Научный стиль речи работа программы завершается в диалоговом окне выводится наименование категории приписанной данному документу.
b Если документ принадлежит к категории Научный стиль речи выполняются следующие шаги
i Загрузка модели второго уровня.
ii Определение принадлежности нового документа к одному из подстилей научного стиля речи в соответствии с алгоритмом классификации изложенном в 2.4.2.
iii Выведение наименования категории приписанной данному документу в диалоговом окне и завершение работы программы.
В данной работе проверялась эффективность метода наивной байесовской классификации текстов по стилям речи основанного на сочетании четырёх параметров
а частоты встречаемости слов WF
б частоты встречаемости знаков препинания Pun
в средней длины слова в буквах WLen
г средней длины предложения в словах SenLen.
В зависимости от выбранного сочетания пропускались или добавлялись соответствующие шаги алгоритма. Вышеописанный алгоритм отражает последовательность действий программы при использовании всех указанных параметров.
3.3. Результаты автоматической классификации текстов по стилям речи
В ходе эксперимента процедуре классификации подверглись 500 заранее отрубрицированных документов. Результаты классификации удобно представить в виде матрицы классификации где указано количество правильно и неправильно отрубрицированных текстов см. Таблица 7 Таблица 8 Таблица 9 Таблица 10.
Таблица 7
Действительное значение Результат классификации
3.4. Интерпретация результатов
Проведённый эксперимент показал что в зависимости от сочетания отобранных параметров классификации выбранный алгоритм классификации способен демонстрировать довольно высокие результаты при классификации текстов по функциональным стилям речи – до 948 полноты 887 точности и 911 по Fмере. Что касается выбранных параметров классификации то они являются легко вычислимыми и содержательными с точки зрения стилистики что позволяет говорить об их эффективности при классификации текстов по стилям речи. Наибольшая точность классификации достигается при сочетании трёх параметров частоты слов средней длины слова и средней длины предложения. Наивысшие показатели полноты и Fмеры демонстрирует сочетание данных признаков с частотой знаков препинания.
Что касается второго уровня рубрицирования – классификации текстов по подстилевым разновидностям научного стиля речи то несмотря на то что показатели качества классификации здесь значительно ниже чем на первом уровне можно говорить о возможности довольно эффективной классификации текстов по подстилям. Как видно из Таблицы 11 точность классификации напрямую зависит от выбора параметров классификации. Так максимальные точность полнота а также показатель Fмеры достигаются при условии использования всех четырёх отобранных параметров. Однако следует отметить что для точной классификации текстов по подстилевым разновидностям деривативных символьных и лексических параметров явно недостаточно. Эксперимент показал что для верного разграничения подстилей речи не только друг от друга но и от близких макростилей необходим более глубокий анализ текста. Тем не менее выбранные характеристики доказывают свою эффективность в качестве основы автоматической классификации текстов по подстилям речи.
Выводы по Главе III
Создание системы автоматической классификации текстов подразумевает серьёзную предварительную подготовку включающую в себя выбор алгоритма классификации отбор параметров классификации создание обучающей и тестовой выборок предварительную обработку текстов. Качество классификации напрямую зависит от данных шагов.
Выбранный в данной работе алгоритм наивной байесовской классификации а также набор легко вычислимых параметров позволили построить относительно эффективную систему двухуровневой автоматической классификации текстов по функциональным стилям речи и по подстилям научного стиля речи. Создание обучающих выборок большого объёма позволило провести обучение классификатора а методы отбора терминов и сокращения объёма словаря способствовали снижению информационного шума. С помощью тестовой выборки была проведена оценка работы системы автоматической классификации результаты которой были записаны в виде матриц классификации. На основании данных матриц была произведена оценка качества классификации на основании трёх метрик полноты точности Fмеры.
Результаты исследования позволяют утверждать что выбранные параметры классификации и метод классификации могут быть довольно эффективными для решения задач автоматической классификации текстов по функциональным стилям. Что касается классификации по подстилям речи то данный метод и выбранные параметры могут служить основой для более точной классификации использующей и другие параметры классификации.
Заключение
Список использованной литературы